【翻译】数据科学面试终极指南(7)
简书专栏:
https://www.jianshu.com/u/be48b04ecc3e
坚持学习Python和English两门语言,致力于让读译文就像读中文的呆鸟
原书内容:
https://www.springboard.com/blog/wp-content/uploads/2016/07/UltimateGuidetoDataScienceInterviews-1.pdf
前文传送门:
资料和数据
如果提出的薪资在平均线左右,谈判就会比较顺利。要是再能提供些详实的证据,你就是谈判桌上强势的一方。
这里有一些资料和数据可供你研究。
Indeed.com公司的数据分析师平均薪资为65,000美元,数据工程师的平均薪资为100,000美元,数据科学家的平均薪资为115,000美元。各地区的收入水平不同,薪资最高的地区集中在技术密集的海湾区。O’Reilly传媒公司的调研表明,和其它美国地区相比,加利福尼亚的数据科学薪资水平和中位数都是最高的。从全球来看,美国的数据科学薪资水平和中位数是最高的,英国、新西兰、澳大利亚和加拿大也相差不多,亚洲和非洲最低。
科技与社交网络公司里数据科学岗的薪资最高,教育和非盈利机构给的薪资最低。
具有不同的数据科学技能,使用不同的工具,薪资水平也不同。O”Reilly对数百名业内人士做过一次调研。研究结果表明影响平均薪资水平的因素很多。比如说,Scala这种扩展性语言的用户薪资中位数超过100,000美元,而SPSS这种专用工具的用户薪资水平就明显低得多。
名人名言
“世界上大多数人做决定,不是靠猜就是靠蒙,运气好的猜中了,运气不好就猜错了。” — Suhail Doshi,Mixpanel公司CEO
“所有企业都告诉经理人要全力支持数据驱动分析。问题是,数据只代表过去。所以,我们教给经理人和顾问的是做决策与分析问题的方法,事到临头才行动的思想是被人唾弃的。” — Clayton M. Christensen,哈佛大学管理学教授
“我们已经进入了数据比软件更重要的时代。” — Tim O’Reilly, O’Reilly传媒公司创始人
“用户希望快速、简单地获取数据,他们才不关心网站吸不吸引人,设计的漂不漂亮。” — Tim Berners-Lee
“数据科学家要干的事情就是采集数据,把数据变为可追踪的形式,用数据讲故事,再把这些故事讲给别人听。” — Mike Loukides,O’Reilly传媒公司副总裁
核对清单
1)列出和求职岗位匹配的技能;
2)列出希望就职的行业和公司类型;
3)准备领英、求职信和电子邮件模板;
4)全面研究求职目标的公司和岗位;
5)主动联系这些公司的职员,争取信息化约谈机会;
6)搭建人脉圈,争取工作推荐机会;
7)搞定数据科学面试;
8)不要放弃希望;
9)入职谈判。
模板
争取信息化约谈
【姓名】,您好:
我对Airbnb的数据科学问题非常感兴趣,同时非常希望能进入这一领域,我还是Airbnb Nerds博客的忠粉,我发现使用数据建立信任感是驱动Airbnb成功的核心。基于我在心理学与统计学方面的背景,或许我能提出些独具创意的想法,帮助你们强化客户信任。
希望能有幸请您一起喝杯咖啡,了解下Airbnb的数据问题,说不定我能帮上忙!
祝好!
【你的名字】
【祝辞】【为什么对这家公司感兴趣】【喜欢这家公司的什么业务】【能在哪些方面帮上忙】
找人推荐工作
【对方的名字】,您好:
很高兴在上次百乐餐会时认识您。我最近在找工作,我对优步的业务很感兴趣,特别是优步数据科学团队面对的那些问题。能帮我介绍一下你们的招聘经理或者数据团队的人吗,我想看看有什么能帮得上忙的地方?
祝好!
【你的姓名】
【祝辞】【说明最近在哪里见过面】【谈一下对这家公司的兴趣,或特定的问题】【请求帮忙介绍招聘经理,看看有没有能帮忙的地方】
面试后的跟进
【面试官的称谓】,您好:
很高兴能和您讨论谷歌的数据科学问题,我觉得您提出的问题里,有一些问题我能帮忙解决,如果可能的话,我希望能参加下一轮面试,谢谢!
【面试官称谓】,您好:
【讨论帮忙解决的问题】【表达想进入下一轮面试的意愿】
术语库
A/B分割测试:A/B分割测试是网络公司设计实验的黄金标准,两组用户分别对应不同的条件,测量他们达到特定目标的转化率。理想状态下,网络公司会专门做A/B分割测试,并会提供对这个概念进行指导。
贝叶斯法则:贝叶斯思维和推断依赖于偏差与方差。(具体的请自己找资料学习)
特征:某个对象的一组信息,通常是表格型数据中的一列。比如某个人的身高、体重和性别,就是三个特征。
生命周期价值:一个用户在一定时期内在某公司消费所产生的预期收益。比如,某家服务型创业公司按月收取软件费用,用每月价格乘以每月付费人数就能得到当月的预期收益。
MapReduce:存储大规模数据集的算法,数据分为多份存在不同服务器上,但处理时却像是对一个完整的数据集进行操作,这种方式可以减少处理大规模数据集的难度。MapReduce使用平行分布式逻辑处理大规模数据集。
过拟合:拟合历史数据趋势的模型,如果历史数据影响太大,就会导致洞察结果的过度归纳,致使预测结果不够精准。
I型错误:假阳性指错误地认可事情发生了,比如说,认为男人怀孕了。用技术用语来说就是,对零假设的错误拒绝。
II型错误:假阴性指错误地认为事情没有发生。比如说,认为孕妇没有怀孕。用技术用语来说就是,对零假设的错误接受。
想了解更多术语,请查阅这个数据科学术语库。
资源
KDNuggets网站上解读面试过程幕后真相的搞笑漫画。
数据科学面试解密这本书提供了很多面试习题。
数据科学手册,中文版叫数据科学家访谈录,京东有售。本书给出了很多数据科学家的实战建议,分析了是什么造就了优秀的数据科学家,还有不少在面试过程中发生的奇闻趣事。与之配套的数据科学面试指南一书中列举了120个数据科学面试时会遇到的问题。
破解编程面试一书是软件工程面试的权威读物,可以帮助求职者通过数据科学面试的编程部分。
Quora的这个帖子介绍了Airbnb怎么招聘数据科学家,这是一位数据科学领军人物对数据科学面试的深度解析。
Trey Cause揭秘了如何通关数据科学面试,他对于数据科学面试的看法非常重要,也十分坦诚。Erin Shell也讨论了她在面试数据科学工作时的经验。。
“随着年龄的增长,经验的增加,我会在面试时反问面试官。我会问面试问题的目的是什么?或者告诉面试官他们的面试方法不能很好的评估我的技术和能力。有些人可能认为我是不是觉得自己太优秀了,所以才不用回答这些大家都得回答的问题,但是我觉得这是评估、预测和招聘人才的重要一环,我要做的就是通过这种方式表示出我的态度。希望你也能做到这一点。我们在搭建团队和招聘时,总是认真的思考我们到底想要实现什么,怎么才能达到我们的目的,复制很多年前就存在的模式不是我们想要的。”
这篇文章很有思想,讲的是Twitter的数据科学项目是怎么运作的,介绍了数据科学家的对这一行感悟。
如果你正在学习概率论,可以参考这个速查表。Quora的这个帖子也能帮你不少忙。
Ellen Chisa的博客介绍了她几次技术面试的失败经验;你可以看看,避免犯同样的错误。
最后,First Round Review有一篇启蒙文章介绍了怎么才能招募到优秀的数据科学家;读一下这篇文章就能知道面试桌对面的人是怎么想的了。
关于作者
Roger Huang是个学霸。他为一家大型医药公司做过价值7亿美金的销售数据分析,并由此进入数据科学这一行。他还是Entrepreneur、TechCrunch、The Next Web、VentureBeat还有Techvibes这些网站的撰稿人。
为了编写这本指南,获得数据科学的见解,他采访了数百名Springboard的数据科学专家,包括Sri Kanajan,本书的合著作者。
Sri Kanajan现任纽约一家投资银行的资深数据科学家。他有14年的开发与管理经验。2013年转行成为数据科学家。他曾在旧金山参加全日制数据科学训练营,完成了全部课程,并在两家创业公司当过数据科学家,到现在这家公司工作前,还担任过Change.com公司的数据科学主管。他利用业余时间担任General Assembly公司数据科学课程的首席讲师,热衷于帮助大家进入数据科学领域工作。
Python爱好者社区历史文章大合集:
Python爱好者社区历史文章列表(每周append更新一次)
关注后在公众号内回复“课程”即可获取:
小编的Python入门免费视频课程!!!
【最新免费微课】小编的Python快速上手matplotlib可视化库!!!
崔老师爬虫实战案例免费学习视频。
陈老师数据分析报告制作免费学习视频。
玩转大数据分析!Spark2.X+Python 精华实战课程免费学习视频。